39 języków w trybie automatycznym: jak nasze tłumaczenie oparte na sztucznej inteligencji radzi sobie z terminologią specjalistyczną

Tłumaczenie maszynowe jest dziś tak dobre, że w wielu przypadkach nie da się go odróżnić od tłumaczenia ludzkiego. Usługi tłumaczeniowe zapewniają płynność, idiomatyczność i wyczucie stylu. A potem tłumaczy się zestaw danych DPP - i nagle „rear lock fiber closure” zamienia się w „zamknięcie z tyłu z włókna”.

Problem dotyczy terminologii specjalistycznej. Wyjaśniamy tutaj, dlaczego dane produktowe nie powinny być traktowane jak powieści oraz jakie narzędzia udostępnia Transpareo, aby Państwa 39 wersji językowych pozostało zrozumiałych.

Podstawowy problem: jedno słowo, wiele znaczeń

„Seal” w DPP kurtki outdoorowej: uszczelnienie. „Seal” w laboratorium: foka lub uszczelka, w zależności od kontekstu. „Seal” w protokole konserwacji: w niektórych przypadkach pieczęć.

Ogólny model tłumaczeniowy dokonuje wyboru na podstawie kontekstu statystycznego. W przypadku płynnego tekstu to działa - powieść dostarcza obfitego kontekstu. W przypadku pola danych primary_closure: seal kontekst jest znikomy. Model zgaduje.

Skutkiem tego są subtelne błędy. Nie tak dramatyczne jak „zapięcie z tyłu z zapięciem z włókna”, ale mające poważne konsekwencje: element, który w języku niemieckim nazywa się „Dichtung”, w włoskim DPP nagle nazywa się „sigillo” zamiast „guarnizione”. Nabywca nie może już znaleźć tej części zamiennej.

Co obecnie oferuje Transpareo

Nasz system tłumaczeniowy automatycznie przekłada każdą nową treść na wszystkie aktywne języki. Charakteryzują go cztery cechy:

Zachowanie znaczników Markdown i zmiennych: przed tłumaczeniem wyodrębniane są symbole zastępcze, takie jak <a href="/pl/zarejestrować się">Pro-Mitgliedschaft</a>, oraz struktury Markdown; tłumaczony jest sam tekst, a następnie struktury te są ponownie wstawiane bez zmian. Dzięki temu linki, formularze i układ pozostają spójne we wszystkich językach.
Centralne wpisy tłumaczeniowe: tłumaczenia nie są zapisywane w samym rekordzie danych, lecz w warstwie współdzielonej. Kilka rekordów danych o tym samym tekście źródłowym korzysta z tego samego tłumaczenia. Pozwala to zaoszczędzić na kosztach tłumaczenia i automatycznie ujednolica terminologię w całym modelu danych.
Automatyczne ponowne tłumaczenie w przypadku zmian: Jeśli tekst oryginalny ulegnie zmianie, tłumaczenia we wszystkich językach są generowane od nowa. Poprawka w języku niemieckim powoduje automatyczną aktualizację 38 pozostałych wersji językowych.
Oznaczenia dla poszczególnych rekordów: treści można wykluczyć z automatycznego przetwarzania lub zablokować istniejące tłumaczenia - na przykład w przypadku międzynarodowych nazw produktów lub ręcznych poprawek.

Gdzie klient uzupełnia przetwarzanie

Tłumaczenie automatyczne zapewnia w większości przypadków poprawne wyniki dla tekstów opisowych, marketingowych i instrukcji konserwacji. W przypadku krytycznej terminologii specjalistycznej - np. „seal”/„guarnizione” - pozostaje pewna liczba błędów, które musi skorygować administrator klienta.

W tym przypadku administrator ma do dyspozycji trzy opcje:

Ręczne nadpisywanie dla poszczególnych języków i słów kluczowych: Każdy wpis tłumaczeniowy można otworzyć w menedżerze aplikacji i dostosować dla danego języka. Dzięki zaznaczeniu opcji „zablokuj” to ręczne tłumaczenie zostanie zachowane podczas następnego automatycznego przetwarzania.
Import słownika: Istniejące terminologie z narzędzi tłumaczeniowych lub słowników w formacie PDF można zaimportować jako plik CSV, co powoduje utworzenie bezpośrednio wpisów tłumaczeniowych.
Korekty dla poszczególnych języków w trakcie pracy: włoski dział sprzedaży zauważa błąd, poprawia go w Menedżerze aplikacji - poprawka obowiązuje natychmiast, a pozostałe tłumaczenia pozostają niezmienione.

Rzeczywistość językowa UE

24 języki urzędowe UE to sporo. W praktyce dzielą się one na trzy grupy:

Rynki kluczowe: DE, EN, FR, IT, ES, NL - tutaj każdy konsument oczekuje perfekcji
Rynki o znaczeniu strategicznym: PT, PL, SV, DA, FI - dobry poziom, sporadycznie widać ślady tłumaczenia maszynowego
Języki rzadko spotykane: MT, GA, ET, LV, LT - czasami pojawia się DPP w języku maltańskim, mimo że żaden konsument końcowy na Malcie nigdy go nie skanuje. Niemniej jednak jest to obowiązkowe.

Ten obowiązek nie jest opcjonalny. Rozporządzenie ESPR wymaga, aby treści DPP były w języku państwa członkowskiego, w którym produkt jest sprzedawany. Kto obsługuje 27 państw, ma więc do czynienia z 24 językami (niektóre państwa dzielą języki).

Dlaczego scentralizowana warstwa lokalizacji

Większość platform przechowuje tłumaczenia jako dodatkowe pola w rekordzie danych: description_de, description_en, … 39 pól na każdy atrybut podlegający tłumaczeniu. Brzmi prosto, ale ma trzy wady:

Podwójne przechowywanie tekstu. Dwa produkty z identycznym opisem materiału generują 39 + 39 tłumaczeń zamiast jednego zestawu 39
Trudna skalowalność. Dodanie 40. języka oznacza: migrację schematu we wszystkich modelach podlegających tłumaczeniu
Trudności z globalnym zastosowaniem poprawek. Jeśli słowo „guarnizione” zostanie poprawione wszędzie, konieczne byłoby edytowanie wszystkich rekordów danych pojedynczo

Rozwiązaniem jest podzielona warstwa tłumaczeniowa: jeden wpis, wiele odwołań. Jedna poprawka, korzyść dla wszystkich rekordów danych.

Czego jeszcze nam brakuje

Baza danych terminologii dostosowana do potrzeb klienta z funkcją automatycznego rozpoznawania propozycji znajduje się w planach rozwoju, ale obecnie nie jest jeszcze dostępna. Kto zaczyna dzisiaj, może wiele osiągnąć dzięki istniejącym narzędziom: ręczne nadpisywanie, import słowników oraz oznaczenie „zachowaj” pokrywają najczęstsze przypadki użycia.

Uważamy, że maszyny powinny wykonywać większość pracy, a ludzie powinni interweniować tylko tam, gdzie jest to naprawdę konieczne. Dopóki automatyczne rozpoznawanie terminologii nie będzie dostępne, ręczna obsługa jest przejrzysta - a to jest bardziej uczciwe niż obietnica, która nie zostanie spełniona.